BiasGRPO: mitigación de sesgos en alta varianza con optimización grupal
Descubre cómo BiasGRPO estabiliza la mitigación de sesgos con optimización grupal relativa, superando a DPO y PPO en benchmarks.
Descubre cómo BiasGRPO estabiliza la mitigación de sesgos con optimización grupal relativa, superando a DPO y PPO en benchmarks.